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摘 要 : 目前 ， 破解 WinRAR 传统 方法 是 使 用 CPU 和 GPU， 而 潜在 的 密码 空间 非常 大 ， 需 要 更 高 性 色 T 

在 有 限 的 时 间 内 找到 正确 的 密码 。 因 此 ， 采 用 四 核 FPGA 的 硬件 平台 ， 实 现 高 效能 的 WinRAR 破解 算法 。 通 过 在 全 流 
水 架构 下 增加 预计 算 和 保留 进位 加 法 器 结合 的 方法 优化 SHA-1 算法 ， 2 e 利用 状态 机 的 控制 优化 数据 拼 
dk, 提升 算 法 并 行 性 ; 同时 , 采用 异步 时 钟 和 多 个 FIFO 缓存 读 写 数据 优化 算法 整体 架构 ， 降 低 算 法 内 部 的 耦合 度 。 实 


验 结果 表明 , 最终 优化 后 的 算法 资源 利用 率 为 75%, 频率 达到 200 MHz, 4 bit 长 度 的 密码 破译 速度 为 每 秒 102 796 个 ， 
是 CPU 破解 速度 的 100 倍 ， 是 GPU 的 3.5 售 。 
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Password recovery for compressed file based on multi-FPGA 
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Mathematical Engineering & Advanced Computing, Information Engineering University, Zhengzhou 450001, China) 


Y^ Abstract: At present, the traditional method of cracking WinRAR is to use the CPU and GPU, but the potential password space 
is very large which requiries a higher performance computing platform to find the correct password within a limited time. 


Therefore, this paper uses the hardware platform of multi-FPGA to achieve a high-performance WinRAR crack algorithm. The 


es SHA-1 algorithm was optimized by adding pre-calculation and carry saving adder under the full-pipeline architecture, so as to 

improve the throughput of the algorithm. And the use of state machine control to optimize data splicing, to improve algorithm 

parallelism. At the same time, it used the asynchronous clock and multiple FIFO buffers to read and write the overall structure 

of the data optimization algorithm to reduce the coupling within the algorithm. The experimental results show that the final 

ge E optimized resource utilization rate is 75% and the frequency reaches 200MHz. The 4-byte password deciphering speed is 102, 
, 796 per second, which is 100 times faster than CPU and 3.5 times faster than GPU. 
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0 az 用 户 密码 服从 Zipf 分 布 ， 而 不 是 长 期 假设 的 均匀 分 布 巾 。 这 一 
发 现 对 “用 户 密 码 ” 的 研究 有 很 重要 的 指导 意义 。 在 密码 破译 

压缩 软件 WinRAR 是 一 款 RAR 压缩 文件 管理 器 ， 具 有 压 。” ”中 也 能 够 暂时 性 的 缩减 密码 空间 。 文 献 [2,3,4] 中 详细 研究 讨论 

缩 、 纠 错 、 加 密 等 多 种 功能 ， 并 且 支 持 多 种 压缩 格式 的 解压 。 了 “口令 猜测 算法 ”及 “口令 猜测 模型 ” 并 利用 社会 工程 学 等 


d 
E 


其 压缩 速度 快 、 压 缩 效率 高 等 多 种 优势 得 到 了 个 人 、 机 构 、 组 方法 获得 针对 性 的 信息 ， 从 而 分 析出 某 些 襄 令 的 特征 ， 
织 等 的 广泛 使 用 。 WinRAR. 密码 加 密使 用 对 称 加 密 算法 AES 和 或 者 针对 某 一 用 户 的 高 概率 口令 。 因 此 ， 利 用 这 些 高 概率 口令 
单 向 不 可 道 算法 SHA-1， 这 两 种 算法 在 目前 的 计算 能 力 下 能 保 可 以 破译 很 多 用 户 密码 ， 缩 减 了 密码 空间 ， 提 高 破译 效率 。 虽 


T 


证 很 高 的 安全 性 。 但是， 这 也 使 需要 对 WinRAR 进行 快速 密码 然 密码 空间 能 够 缩小 很 大 一 部 分 ， 但 是 一 个 高 效能 的 计算 平台 
破译 的 信息 安全 和 计算 机 取证 带 来 了 一 定 的 困难 。 对 进一步 提高 破译 效率 具有 很 重要 的 作用 。 

前 ， 破 译 WinRAR 的 密码 采用 字典 + 穷 举 的 方法 ， 但 随 现 有 的 破解 方法 主要 有 依托 于 CPU 平台 的 密码 软件 破解 ， 
着 密码 长 度 的 增加 ， 可 能 的 空间 呈 指 数 倍增 长 。 近 期 研究 发 现 。 破解 速度 慢 。 基 于 OpenCL 和 CUDA 架构 的 GPU 平台 破解 ， 
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于 其 受到 访 存 的 限制 ， 影 响 了 计算 性 能 的 提升 ， 而 且 功 耗 较 
高 。 因 此 ， 需 要 更 高 效 的 计算 平台 来 提高 破解 的 效率 。 现 场 可 
编程 门 阵 列 〈field programmable gate array, FPGA ) 经 过 近 30 年 
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AccentRAR 在 GPU 上 快 了 2 fi. 文献 [9] 中 在 GPU 平台 下 通 


的 发 展 ， 已 成 为 实现 数字 系统 的 主流 平台 之 一 ， 在 以 太 网 交换 
机 传输 数据 、 图 像 压 缩 、 模 板 计 算 的 加 速 等 方面 都 得 到 了 较 好 
的 应 用 B77。 将 FPGA 用 于 WinRAR 的 密码 解密 中 ， 利 用 流水 
线 并 行 工作 的 方式 ， 可 实现 WinRAR 密码 破解 算法 的 高 效 性 。 


再 结合 GPU 本 身 的 优势 进行 优化 , 比 AccentRAR 在 CPU 上 的 
速度 高 43 到 57 倍 。 文 献 [10] 是 基于 CUDA 架构 对 整体 算法 进 


过 增加 三 个 数组 的 方式 减少 状态 跳 变 和 数据 链接 所 需要 的 时 间 ， 


行 优化 , 提高 了 性 能 。 文献 [11] 通 过 对 口令 空间 采用 一 种 基于 并 
行 随机 搜索 的 新 方法 生成 字典 ， 提 高 破解 的 成 功率 。 在 FPGA 


平台 上 , 对 于 SHA-1 算法 的 优化 , 文献 [12,13,14] 通 过 使 用 保留 


本 文 的 主要 工作 是 基于 四 核 FPGA 硬件 平台 , 提出 对 SHA-1 4 
法 关键 路 径 的 优化 ， 并 通过 状态 机 的 控制 优化 数据 拼接 。 算 法 
的 整体 架构 采用 异步 时 钟 使 核心 模块 运算 频率 最 大 化 ， 并 使 用 


进位 加 法 器 (Carry Save Adders, CSA) 的 方式 减少 关键 路 径 的 
延 时 。 文 献 [15] 通 过 增加 P、Q、R 三 个 中 间 变 量 进行 预计 算 减 
少 延 时 。 文献 [16] 基 于 循环 展开 方法 的 40 级 流水 线 提高 算法 的 


多 个 独立 时 钟 双 端口 Block RAM 实现 的 FIFO 配合 全 流水 线 进 
行 数据 缓存 读 写 。 最 后 通过 实验 ， 对 比 不 同 平台 WinRAR 破解 
算法 的 性 能 ， 表 明 本 文 优 化 后 的 算法 性 能 有 明显 的 提升 。 


1 ”算法 分 析 


WinRAR 破解 算法 主要 分 为 四 步 ， 具 体 流程 如 下 : 
a) 提 取 特 征 串 。 从 压缩 文件 中 提取 盐 值 salt 和 哈 希 值 digest， 
于 输入 计算 。 
b) 数 据 拼接 和 SHA-1 运算 ,将 可 能 的 密码 ( 宽 子 节 )、8 Byte 
的 盐 值 、3 Byte 的 num 依次 进行 拼接 。 其 中 ，num 表示 拼接 的 
次 数 。 整 个 解密 过 程 一 共 需 要 拼接 262 145 次 ， 每 # 
需要 进行 一 次 SHA-1 运算 。 每 拼接 16 384 次 需要 进行 
外 的 SHA-1 运算 ， 用 于 获取 密 钥 key 和 iv 值 。 
c)AES 运算 。 将 digest 与 key 做 AES 运算 ， 得 到 aes r, 并 


将 aes r 5j iv 异 或 ,得 到 xor ro 


M 


吞吐 率 。 文 献 [17,18] 利 用 循环 展开 和 预计 算 的 方式 减少 关键 路 
径 的 长 度 和 循环 的 轮 数 ， 达 到 高 速 运行 。 
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图 2 不 同 密码 长 度 对 应 的 SHA-1 次 数 及 相对 时 间 

Fig.2 The number of SHA-1 and relative time 

上 述 研究 WinRAR 破解 性 能 的 提升 主要 集中 在 GPU 平台 ， 
于 GPU 要 和 CPU 共享 内 存 ， 限 制 了 性 能 的 提升 ， 且 功 耗 较 


d) 比 较 。 将 xor r 和 一 个 固定 值 进行 比较 , 判断 密码 是 否 正 
确 。 算 法 结构 如 图 1 所 示 。 


digest AES 运 算 


图 1 解密 算法 结构 图 
Fig.l Decryption algorithm structure 

在 整个 算法 中 计算 量 最 大 的 就 是 数据 拼接 操作 和 SHA-1 
运算 ， 并 且 随 着 密码 长 度 的 增 大 ， 需 要 进行 SHA- 运算 的 次 数 
呈 线 性 增长 ， 计 算 需要 的 时 间 也 呈 线 性 增长 ， 如 图 2 所 示 。 图 
中 以 计算 一 个 4 位 长 度 密码 的 时 间 为 基准 单位 来 衡量 其 他 长 度 
密码 的 计算 时 间 。 

从 算法 分 析 中 可 以 知道 对 数据 拼接 操作 和 SHA-1 的 优化 
对 算法 的 整体 性 能 提升 有 至 关 重 要 的 作用 .文献 [8] 中 在 GPU 平 
台 下 在 CPU 端 预 先生 成 一 个 拼接 表 , 再 将 此 表 一 部 分 放 到 共享 
内 存 中 ， 为 GPU 端 进行 计算 ， 最 终 在 w8000 GPU 上 破解 4 位 


。 对 于 FPGA 平台 ，SHA-1 算法 的 优化 仍然 有 很 大 的 提升 空 
间 。 因 此 ， 本 文 的 研究 基于 低 功 耗 的 四 核 FPGA 硬件 平台 ， 通 
过 优化 数据 拼接 操作 和 进一步 优化 SHA-1 算法 , 提升 算法 效率 。 


ki 


2 ”算法 优化 及 实现 


2.1 SHA-1 算法 优化 

SHA-1 算法 自 1995 年 修订 发 布 以 来 ， 广泛 应 用 于 数字 签 
名 、 传输 层 安 全 、 安全 电子 交易 、 无 线 局 域 网 等 信息 安全 领域 。 
SHA-1 加 密 流程 为 补 位 、 初 始 向 量 值 、80 轮 循环 运算 、 自 加 运 
算 。 其 中 80 轮 运算 的 作用 是 更 新 A、B、C、D、E 五 个 值 ， 并 
作为 最 后 的 输出 ， 每 个 值 32 位 ,一 共 160 位 ,而 A 值 为 
S;(A)+ ,(B.C.D) - E-W, +K, ,tt 代表 轮 数 , f 是 逻辑 函数 ，K 
是 常数 ，W 的 值 为 SW, 3 ^W, y ^W, ^ Wio] > S 是 循环 
函数 。A 值 是 运算 的 最 长 路 径 ， 也 是 整个 运算 的 关键 路 径 。 因 
此 ， 优 化 SHA-1 算法 的 关键 路 径 决定 了 整体 的 运行 效率 。 
2.1.1 SHA-1 算法 优化 方法 

算法 的 吞吐 量 与 频率 、 流 水 线 级 数 成 正比 20， 因 此 本 文采 
用 预计 算 与 保留 进位 加 法 器 策略 减少 关键 路 径 的 延 时 ， 提 高 算 
法 的 频率 ， 并 采用 全 流水 线 实 现 算法 ， 从 而 能 够 提高 算法 的 知 
吐 量 。SHA-1 算法 核心 迭代 需要 SO 轮 运算 ， 且 每 轮 运 算 需 要 


长 度 密 码 的 性 能 达到 了 每 秒 10100 个 ， 比 商业 破解 软件 


上 轮 运算 的 结果 ， 运 算 过 程 中 每 轮 运算 互 不 干扰 。 同 时 ， 在 进 


ChinaXiv& f'EPRTI 
录用 定稿 EAA, F: 基于 多 核 FPGA 的 压缩 文件 密码 破译 37%% 1 期 


行 密码 尝试 中 ， 每 个 密码 的 计算 又 是 相互 独立 的 。 因 此 ， 可 以 


assign. A. next - CSA ( [A[26:0], A[31:27]] ,f ,6 ); 


采用 并 行 全 流水 线 方法 实现 ，80 轮 运算 需要 80 个 时 钟 周期 ， 

再 加 上 预计 算 与 输出 一 共 82 级 流水 线 。 预 计算 通过 增加 寄存 通过 使 用 CSA 更 新 A 值 ， 减 少 了 关键 路 径 的 延 时 。 因 为 
器 G， 使 关键 路 径 变 为 两 个 加 法 运算 和 位 运算 ,减少 关键 路 径 ”每 轮 运 算 罗 辑 函 数 了 不 同 ， 这 一 部 分 又 分 为 四 个 小 模块 ， 但 是 
的 延 时 。FPGA 适合 于 位 运算 ， 而 加 法 运算 延 时 比 位 运算 高 ， 功能 都 相同 ， 且 同样 需要 实现 流水 线 架 构 。 因 此 ， 最 终 需 要 实 
保留 进位 加 法 器 CSA 策略 能 够 减少 加 法 运算 , 最 小 化 关键 路 径 Bk 80 份 , 以 消耗 资源 换取 时 间 效 率 最 大 化 。 图 4 显示 了 三 个 


长 度 ， 保 证 流水 吞吐 率 09]。CSA 运算 如 下 ， 其 中 a、b、c 为 n — 模块 协同 工作 实现 SHA-1 算法 的 全 流水 线 结构 。 
位 二 进 制 数 : 
S(a,b,c) -2a^b^c 


预计 算 模块 数据 更 新 模块 


Ca(a,b,c) -[(a &b)| (b &c)|(a &c)] ««1 


CSA(a, b,c) = S(a,b,c) - Ca(a,b,c) 2a bc 
通过 增加 位 运算 来 减少 加 法 运算 ， 在 关键 路 径 运用 保留 进 
位 加 法 器 使 加 法 运算 变 为 一 个 从 而 来 减少 延迟 。 因 此 ， 在 全 流 
水 线 架 构 下 增加 预计 算 和 保留 进位 加 法 器 策略 能 够 降低 延 时 ， 


80 个 时 钟 周 数据 更 新 模块 


提高 算法 效率 。 J4 三 个 模块 实现 的 全 流水 架构 图 
2.1.2 SHA-1 算法 优化 实现 Fig.4 Three modules to achieve the full-pipeline structure 
在 具体 实现 算法 时 ， 分 为 三 个 主要 模块 协同 工作 实现 全 流 22 基于 状态 机 的 数据 拼接 优化 
水 线 技术 ,并 且 在 其 中 引入 预计 算 和 保留 进位 加 法 器 策略 。 第 在 WinRAR 密码 解密 中 ， 数 据 拼接 需要 拼接 262145 次 ， 
一 个 是 W 模块 用 于 计算 每 轮 W 的 值 ， 需 要 定义 如 下 寄存 器 数 — 上 且 每 拼接 64 字 节 还 要 进行 SHA-1 运算 ， 同 时 还 要 保存 拼接 到 
组 : 的 位 置 , 以 便于 下 一 次 拼接 从 这 个 位 置 开始 ,由 于 拼接 次 数 多 、 
reg [31:0] W[64:0][15:0] , W _next[63:0] ; 拼接 时 间 长 成 为 了 算法 效率 提升 的 瓶颈 .SHA-1 算法 采用 82 级 
reg [31:0] W. 65[14:0] ; 流水 线 ， 数据 拼接 的 数据 要 输入 到 SHA-1 运算 ， 数 据 拼 接 需要 
reg [31:0] W_64[13:0] ; 在 82 个 时 钟 周期 内 完成 82 组 数据 的 64 字 节 拼接 操作 。 因 此 ， 
reg [31:0] W 79; 本 文 基于 状态 机 的 控制 ， 通 过 增加 位 宽 为 8 的 寄存 器 数组 
这 样 定 义 可 以 节省 3840 个 寄存 器 资源 ， 其 中 W_next[j] pwd aray[39:0] ~ temp array[63:0] ~ flag array[63:0] ~ 
Wi] 计 算得 到 ，i 从 0 到 63。 数 组 赋值 及 传递 如 图 3 所 示 。 final array[63:0] 使 数据 拼接 能 够 并 行 处 理 ， 实 现 流水 线 的 数据 
传递 ， 提 升 算法 的 效率 。 
wo woo | woa | =e W[O][15] m DATA i 
vorm [wr] pns — pm [m] — cEH 
: pd array 31 |oo|s2 oo[s3 oo|sa oo 
WU64| wreAyto] | wisala] | =+ WI63I | wtesp] | + ITIETITI 
welweso | me [w esta ~ wea | m) WIJS] flag array o 1|2|3|4 5 6 7 ree ff fe fe tll elele o 123] e 
W 60 W 66[0] | eee W. 66[13] = wegah ^^ e W[64][14] 0123456789a bc d e f 10111213141516 =! 3f 
: temp array 010]0/0/0/0/0/0 ST 5518 3g um |0|0|0]|0| e 
W 7d w 790] | | W 78[1] 
final array 31/00/32 0033 |00|34|00 8 字 节 的 盐 值 3 字 节 num |31]0032100| …… 
图 3 数组 W 实现 全 流水 线 的 逻辑 结构 图 到 5 ”最终 的 数据 拼接 方法 
Fig.3 Array W to achieve the full-pipeline logic structure Fig.5 The final data link method 
图 3 中 将 数组 W 全 部 展开 ， 使 数据 传递 的 过 程 更 加 清晰 ， 在 实现 中 ， 数 组 pwd_array 用 于 存储 密码 ， 并 将 密码 补 位 
输入 数据 DATA 经 过 80 个 时 钟 周期 完成 W 的 全 部 计算 。 单 个 ” 变 为 2 字 节 的 宽 字 节 ， 且 支持 密码 达到 20 位 。 数 组 temp array 


时 钟 周 期 内 ， 数 组 之 间 并 行 处 理 ， 且 相 邻 数组 数据 串 行 传递 ， 于 存储 盐 值 和 num 到 相应 位 置 。 数 组 flag array 用 于 标记 口 
从 而 实现 全 流水 线 的 计算 ， 提 高 了 时 间 效 率 和 资源 利用 率 。 令 所 在 的 位 置 ， 初 始 化 均 设 为 0xff， 根 据 状 态 机 来 更 改 数组 的 
第 二 个 是 预计 算 模块 。 定 义 32 位 宽 的 寄存 器 数组 G[80], 在 值 ， 最 后 的 拼接 根据 这 个 值 的 大 小 来 判断 是 什么 值 ， 并 且 判 断 
每 轮 运算 时 都 预先 计算 G 的 值 W + 天 ,+ 已 ， 从 而 减少 关键 路 数据 所 在 的 位 置 。 相 同 密码 的 temp array. flag array 值 相同 ， 
径 的 长 度 。80 轮 运算 需要 计算 80 个 G 的 值 ， 且 不 同 数据 的 值 只 需 赋值 一 次 , 可 供 流水 线 82 个 密码 共同 使 用 , 从 而 提升 时 间 
依次 传递 ， 实 现 了 数据 内 的 串 行 ， 数 据 间 的 并 行 。 效率 。 数 组 final. array 则 存储 最 后 SHA-1 运算 的 输入 值 。 以 密 
第 三 个 模块 是 数据 更 新 模块 ,用 来 更 新 A、B、C、D、E 的 。” 码 “1234” 为 例 ， 在 图 5 中 显示 了 这 四 个 数组 是 如 何 赋值 的 以 及 
值 ， 其 中 更 新 A 的 值 是 关键 ,其 更 新 如 下 : 如 何 拼接 的 ， 图 中 的 值 都 是 ASCH $3 16 进 制 显 示 。 
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数组 的 赋值 依赖 于 状态 机 的 控制 。 


1 


密码 和 盐 值 的 长 度 len2， 
状态 2 ”控制 
状态 3 


用 于 


的 开始 ， 初 始 化 ， 拼 接 中 的 数 
可。 具体 状态 控制 如 下 : 
状态 1 对 数据 进行 初始 化 ， 


接 的 开始 、 


状态 机 控制 着 数据 拼接 


o d: 基于 多 核 


ChinaX i 
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据 赋 值 ， 状 态 的 保存 及 状态 的 返 


包括 计算 密码 的 长 度 lenl, 
后 续 判 断 填 充 的 位 置 。 
结束 和 重 返 初始 状态 。 


判断 再 


转 到 


位 置 ， 同 时 根据 计数 器 判断 给 


数据 传递 计算 ， 再 转 到 状态 4。 


状态 4: 根据 3 状态 保存 


接 一 轮 是 
状态 4。 如 果 超 过 ， 则 先 将 不 超过 的 部 分 根据 lenl 和 len2 
的 大 小 给 数组 temp. array. flag array 赋值 ， 


否 到 64 字 节 ， 如 果 不 超过 ， 则 


且 保存 拼接 到 的 
数组 final array 赋值 用 于 流水 线 


的 位 置 继续 下 一 轮 的 数组 赋值 ， 


如 果 拼 够 一 轮 , 则 返回 状态 2， 拼 接 次 数 loop 加 1, 如 此 循环 ， 
状态 转换 图 如 图 6 所 示 。 
(AN 
初始 化 F3 m 
(3Y > 个 组 
SA is 
JBE 70, 
(4) 
图 6 状态 转换 图 


Fig.6 State transition diagram 


通过 状态 的 跳 变 给 数组 temp. array. flag array 赋值 使 拼接 


结构 更 加 清晰 ， 且 仅 需 赋值 一 
低 了 拼接 消耗 的 时 间 。 通 过 中 
接 链接 到 密码 ， 使 数据 的 拼接 能 
实现 流水 线 ， 提 升 算法 效率 。 
2.3 整体 算法 优化 

为 了 从 FPGA 和 强大 的 计 
设计 师 必须 遵循 一 种 高 效 的 设 
原则 : 控制 
的 硬件 架构 P9。 为 了 达到 这 种 
实现 时 ， 需 要 充分 利用 板 卡 的 
能 够 满 负荷 工作 。 因 此 ， 本 文 


H 
# 


算法 的 细 化 ， 模 块 化 和 最 佳 的 适用 性 ， 


次 可 使 流水 线 计算 共同 使 用 ， 降 
间 数 组 flag array 作为 标记 ， 间 


行 化 ， 降 低 结 构 复 杂 度 ， 


算 机 辅助 设计 工 
计 方 法 。 这 种 方法 基于 三 个 主要 
以 及 所 选择 
高 效 的 方法 ， 在 整体 算法 的 设计 
LUT 与 FF W, (E FPGA 芯片 
整体 算法 的 设计 主要 分 为 上 层 控 


央 和 核心 算 子 两 部 分 前 者 通过 控制 可 以 实例 化 多 个 核心 算 子 ， 


并 且 对 多 个 算 子 的 结果 进行 下 
而 提升 算法 的 整体 性 能 。 


收 ， 实 现 多 个 算 子 并 行 工 作 ， 从 


上 层 控制 又 细 分 为 外 部 接口 模块 用 于 


从 CPU 端 获取 数 ] 
个 核心 算 子 。 
较 模 块 。 模 块 与 模块 之 


Eo 数据 管理 


间 使 用 


核心 算 子 分 为 密码 穷 举 模块 、 
IP Catalog 生成 双 端 


给 


与 分 发 模块 用 于 将 数 ] 
核心 运 


dept 
云 算 模块 和 比 
Block RAM 


的 FIFO 缓存 数据 和 读 写 数据 。 通 过 


的 优势 中 获 益 ， 
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细 粒 度 模 块 结构 如 图 7 所 示 。 
FIFO [| 传送 数据 管理 
Pl 
算 子 1 算 子 2 算 子 10 
1 953 穷 举 穷 举 
接 缓存 缓存 | | eee 缓存 
口 状态 运算 运算 运算 
ER 比较 比较 比较 
i 
地 址 结果 的 算 子 地 址 


图 7 细 粒 度 模块 结构 图 


Fig.7 Fine-grained module structure 


算法 的 吞吐 量 、 运 行 速度 与 时 钟 频率 是 正 


相关 ， 时 钟 频 率 


越 高 ， 运 行 效率 也 越 高 。 但 是 频率 过 高 ， 
题 ， 致 使 FPGA 布线 失败 ， 


TAS 


产生 时 序 阻塞 问 


因此 要 对 时 钟 频率 进行 优化 。 分 析 


整个 算法 ， 可 以 发 现 计 算 量 最 大 、 
和 数据 拼接 部 分 ， 这 两 个 核心 运算 部 分 可 以 设 
时 钟 ， 加 快 核心 运算 速度 。 而 为 这 两 部 分 提供 
模块 和 口令 穷 举 模块 采用 低频 率 时 钟 足 以 满足 
过 将 时 钟 域 分 离 ， 既 能 充分 利用 板 卡 性 能 ， 
时 序 问 题 ， 使 算法 性 能 进一步 提升 。 


吉 果 及 分 析 


本 文 实 验 的 硬件 平 


B 


3 ”实验 结 


计算 最 复杂 的 是 SHA-1 运算 


计 成 一 个 高 频率 
数据 的 上 层 控制 
核心 计算 需求 。 
也 能 最 大 化 降低 


台 是 在 四 核 FPGA 集成 加 速 卡 上 实现 ， 


芯片 型 号 为 XILINX 公司 的 XCKU060， 其 查找 表 LUT 资源 是 
331680, FlipFlops 寄存 器 资源 是 663360。 软 件 平台 为 集 设计 、 


仿真 、 综 合 、 布 线 、 生 成 于 一 体 的 Vivado 软件 。 通 过 对 算法 的 
不 同 部 分 进行 相应 优化 ， 使 最 终 算法 在 吞吐 量 、 运 行 速度 、 资 
源 利 用 率 等 方面 有 较 大 的 提升 。 
表 1 不 同文 献 SHA-1 实现 性 能 对 比 
Table 1 SHA-1 performance comparison 
对 比 文献 流水 线 级 数 最 大 频率 吞吐 量 
文献 [12] 82 43.08MHz 22.056Gbps 
文献 [13] 81 272 MHz 139.264Gbps 
文献 [14] 81 303.3 MHz 155.289Gbps 
文献 [15] 83 123.3MHz 63.129Gbps 
文献 [16] 40 163.7 MHz 76.195Gbps 
文献 [17] 4 150.7 MHz 7.35Gbps 
本 文 82 470 MHz 240.64Gbps 
本 文 在 实现 全 流水 线 架构 的 基础 上 通过 使 用 预计 算 和 保留 
进位 加 法 器 对 SHA-1 算法 进行 优化 , 其 优化 后 的 性 能 如 表 1 所 


FIFO 在 模块 之 间 进 行 


实现 
数据 
同时 尽量 减少 CPU 与 FPGA 
能 的 降低 。 密 码 
上 位 机 传输 扼 码 字 
。 掩 码 字 典 是 一 种 穷 举 规则 
* ,从 而 通过 人 为 控制 


的 传递 , 降低 算法 模块 之 间 的 耦合 度 , 提升 算法 的 并 行 性 。 


码 穷 举 模块 实现 为 掩 码 字 
到 FPGA 的 口令 穷 举 模 块 产生 相应 的 


的 交互 ， 避 免 速 度 的 差异 致使 性 


有 的 方式 ， 在 实现 时 i 


|z 


b 


示 ， 在 表 1 中 同时 给 出 了 其 他 文献 实现 的 性 能 。 


通过 对 比 ， 可 以 发 现 本文 优 化 后 的 性 能 在 


频率 上 达到 470 


MHz, ÆI] 240.64 Gbps， 比 最 高 吞吐 


， 而 在 规则 中 可 以 包含 高 概率 口 


优先 测试 高 概率 口令 ,缩减 破译 的 时 间 。 


量 的 文献 [1 和 还 


高 出 了 85Gbps， 是 文献 [16] 的 32 倍 ， 性 能 有 
更 进一步 的 验证 优化 后 的 性 能 ， 设 计 了 表 2 
XCKU060 上 实现 。 


了 显著 提升 。 为 了 
的 5 种 方案 在 
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表 2 不 同 优化 对 比方 案 大 部 分 的 口令 。 与 其 他 文献 方法 对 比 ， 如 表 4 所 示 。 
Table 2 Different optimization comparison project 表 4 不 同文 献 破解 算法 性 能 表现 
方案 不 同 优化 方法 Table 4 Different research algorithms performance 

1 不 进行 任何 优化 对 比 文献 实验 平台 (型 号 ) 速率 Wk 

2 增加 预计 算 进 行 优化 AccentRAR CPU (17) 1000 1.00 

3 增加 预计 算 并 且 使 用 CSA， 关 键 路 径 也 使 用 CSA 文献 8 GPU (W8000) 10100 10.10 

4 不 使 用 预计 算 ， 但 是 在 关键 路 径 使 用 两 次 CSA 文献 9 GPU (W8000) 17778 17.78 

5 \ 使 用 预计 算 ， 在 关键 路 径 使 用 CSA5 本 文 FPGA (XCKU060) 102796 — 102.80 
表 2 CSAS 是 对 CSA 的 扩展 ， 其 运算 如 下 : 以 软件 AccentRAR 的 性 能 作为 基准 , 本 文 的 性 能 达到 了 其 
Sta 56) a^ be 100 倍 ， 比 其 他 文献 的 方法 性 能 高 很 多 。Hashcat 是 一 个 提供 基 
Ca(a,b,c) — [(a & b) | 6 & c) | (a & c)] «« 1 : 


S'(S,Ca,d)—S^Ca^d 


T OpenCL 的 开源 破解 软件 的 网 站 ， 其 破解 性 能 好 ， 破 解 算法 
CaS, Ca, d) - IG & Ca) | (Ca & d) | GS & 4)] «1 等 受到 大 家 的 广泛 使 用 ， 因 此 本 文 使 用 Hashcat 在 GPU 
CSAS(a,b,c.d ,e) = CSACS',Ca',e) 2a bcd +e (GTX10800 上 作 验 证 对 比 ， 比 较 结果 如 图 9 所 示 。 

5 种 方案 都 是 在 全 流水 线 和 全 展开 的 基础 上 再 优化 实现 ， 
实现 结果 如 表 3 所 示 。 
表 3 不 同方 案 资源 综合 表 
Table 3 Different project resources integrated table 


对 比方 案 LUT 消耗 ( 占 比 ) ”FF 消耗 ( 占 比 ) ”最 大 频率 


口 FPGA 日 GPU 


1 11768 (3.55%) 19488 (2.94%) 340MHz 
2 11967 (3.61%) 26483 (4.0096) 420MHz 
3 11355 (4.42%) 21290 (3.2190) 425MHz 
4 14809 (4.4696) 20100 (3.0394) 415 MHz 于 9 不 同 密码 长 度 破 译 性 能 对 比 
5 15639 (4.7294) 21173 (3.19%) 367MHz Fig.9 Different password length performance 
最 终 方案 09415 (2.84%) 21514 (3.24%) 470MHz 从 图 中 可 以 看 出 本 文 的 性 能 达到 了 Hashcat 的 3.5 倍 。 将 


从 表 中 可 以 看 出 使 用 预计 算 和 保留 进位 加 法 器 结合 进行 优 本文 的 优化 结果 与 其 他 文献 、 软 件 对 比 ， 实 验 结果 表明 了 本 文 
化 与 其 他 类 型 的 优化 相 比 在 最 高 频率 方面 是 最 优 的 ， 和 不 进行 ”的 方案 有 较 大 的 性 能 提升 。 
任何 优化 相 比 算法 频率 提升 130MHz。 所 有 采用 预计 算 的 方案 


ote eds ee 4 ”结束 语 
与 不 使 用 预计 算 优化 相 比 ， 其 寄存 器 都 有 较 高 消耗 。 
120000 1 ——————————À————————— 当前 RAR 口令 密码 破译 主要 是 在 CPU 和 GPU 平台 ， 前 
ied ts ta a did 者 主要 的 问题 是 破译 速度 慢 ， 远 远 不 能 满足 口令 空间 的 指数 级 


增长 ， 后 者 由 于 涉及 到 访 存 问题 ， 限 制 了 破译 性 能 ， 并 且 功 耗 
较 高 。 针 对 这 些 问 题 ， 本 文 提出 了 多 核 FPGA 硬件 平台 破译 的 
方法 ， 在 全 流水 线 架构 下 采用 预计 算 和 保留 进位 加 法 器 策略 缩 


80000 


60000 


40000 


I 


swo aaa 短 关 键 路 径 来 优化 SHA-1 算法 ， 使 SHA-1 算法 的 吞吐 量 达到 
,区 基期 其 居 肌 用 有 了 240.64 Gbps。 结合 FPGA 的 低 功 耗 、 并 行 性 、 时 钟 频率 高 等 

4 5 6 7 8 9 10 11 12 优势 对 破解 算法 的 数据 拼接 和 整体 架构 进行 优化 ， 使 算法 最 终 

图 8 不 同 密码 长 度 的 破解 速率 的 频率 达到 200MHz， 破 解 四 位 密码 长 度 的 性 能 达到 每 秒 102 

Fig.8 Different password cracking rate 796 个 ， 并 通过 与 其 他 文献 进行 对 比 ， 表 明 在 多 核 FPGA 的 硬 

通过 对 SHA-1 算法 、 数 据 拼接 、 以 及 整体 架构 优化 ， 并 件 平台 ， 优 化 算法 后 实现 的 性 能 有 明显 的 提升 ， 也 表明 了 优化 


尽 可 能 的 使 用 芯片 资源 ， 最 终 算 法 实例 化 10 个 核心 算 子 模块 ， ”算法 方法 的 可 行 性 。 

占用 资源 为 75%， 实 验 结果 的 整体 算法 优化 性 能 如 图 8 所 示 。 虽然 本 文 提出 的 方法 使 破译 性 能 有 了 很 大 的 提升 ， 但 是 对 
从 图 8 中 可 以 看 出 ， 在 不 同 密码 对 应 的 破解 速度 在 多 核 ”于 庞大 的 口令 空间 ， 其 计算 性 能 仍然 很 难 满足 实际 的 需求 ， 因 

FPGA 板 卡 上 性 能 是 单 核 的 4 倍 ， 在 密码 长 度 为 4 的 破译 速率 此 ， 生 成 高 概率 密码 结合 本 文 的 性 能 才能 更 大 的 提高 破译 的 成 

达到 每 秒 102 796 个 。 通 过 控制 使 核 与 核 之 间 并 行 运行 ， 且 支 。 功率。 而 高 概率 密码 则 需要 结合 诸如 大 数据 ， 统 计 ， 人 工 智能 

持 多 任务 。 当 有 大 量 的 加 密 文档 需要 恢复 时 ， 在 每 个 核 运行 不 ”等 多 方面 的 知识 ， 而 这 些 将 会 是 破解 成 功 的 关键 及 以 后 的 工作 

同 的 任务 ， 通 过 高 概率 口令 的 优先 穷 举 ， 能 够 很 快 恢复 出 其 中 重点。 
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